La legge di Benford afferma che, nella maggior parte delle raccolte di dati numerici reali e naturali senza costrizioni, la prima cifra (ad esempio, la cifra "1" nel numero "1976") è distribuita in forma logaritmica (Benford, 1938)
$$ P(d) = \log_{10}\left(1 + \frac{1}{d}\right) $$dove $d \in [1...9]$ è la prima cifra e $P(d)$ è la probabilità di osservare la cifra $d$ nella raccolta di dati.
Nota la legge è possibile testare se una collezione di dati rispetta questa distribuzione con un test di ipotesi nulla, dove $H_0$ corrisponde all'ipotesi che i dati empirici osservati provengano dalla stessa distribuzione teorica di Benford. Questi test sono stati ampiamente utilizzati, ad esempio, per verificare anomalie in dati economici e politici (Nye and Moul, 2007, Gonzales-Garcia and Pastor, 2009, Rauch et al., 2011, Holz, 2014, Nigrini 1996) e recentemente anche sui dati della pandemia di COVID-19 (Koch and Okamura, 2020).
Vengono solitamente usati due stimatori per la verifica dell'ipotesi nulla:
i cui $p$-value sono spesso combinati. Nel lavoro di Kock e Okamura, viene utilizzato Kuiper test, una versione modificata del K-S.
Laddove il $p$-value ottenuto dal test di ipotesi nulla sia inferiore ad un certo livello di significatività (solitamente si usano tre livelli di significatività crescente, 0.10, 0.05, e 0.01) esiste la possibilità che la distribuzione osservata non segua la legge di Benford ed è pertanto necessario indagare sulle cause che rendono i dati raccolti meno verosimilmente "naturali".
In questa analisi, si presenta una serie di test di Benford sui dati regionali della pandemia di COVID-19 nelle singole regioni italiane. Come nel paper di Koch and Okamura, 2020 il test verrà effettuato sulla parte di dati in cui l'epidemia è in fase eponenziale in ciascuna delle due ondate del 2020 ma, analizzando qui i dati regionali separati, le due ondate saranno considerati nel loro insieme per estendere l'ampiezza dei campioni ed evitare sottostime.
NOTA BENE: Vengono qui mostrati solamente i risultati dei test e il sommario dei livelli di significatività. Non si formula nessuna ipotesi sul motivo per cui si osservino anomalie in alcuni set di dati o in alcune regioni.
Essendo lo scopo di questa analisi non già ricercare anomalie specifiche ma classificare quali regioni e quali campi evidenzino maggiori probabilità di anomalie, sarà usato un test di Kolmogorov-Smirnov per due campioni di frequenze categoriche ordinate (Pierini, 2020) e saranno evidenziati quattro livelli $\lambda$ di significatività
Infine per ogni regione e per ogni campo di dati sarà calcolato un livello di significatività percentuale $L$ delle anomalie
$$ L = \frac{ \sum_{i=1}^{N} \lambda_{i} }{ 3N } $$dove $N$ è il numero di regioni o di campi e $\lambda_{i}$ è il numero corrispondente al livello di significatività $\lambda$ dell'elemento $i$.
Exported from Italia/Benford_regioni.ipynb committed by maxdevblock on Fri Apr 2 18:53:11 2021 revision 173, 0f50af3f